두 변수가 함께 변한다는 것을 발견했다. 그것만으로 한쪽이 원인이라 말할 수 있는가? 아니다. 잠복변수 · 역인과 · 우연한 일치 · 표본 편향 — 통계 해석을 망치는 네 가지 함정이 있다. 이 교훈을 모르면 데이터에 속는다.
이 사실은 통계적으로 분명하다. 강한 양의 상관관계. 그렇다면 — 아이스크림이 익사의 원인인가? 아이스크림을 금지하면 익사 사고가 줄어드는가? 당연히 아니다.
진짜 원인은 둘 다 — "여름"이라는 제 3의 변수다. 여름에 사람들이 아이스크림을 더 사 먹고, 여름에 더 많이 수영을 한다. 두 변수는 함께 변하지만, 그 사이에 인과관계는 없다.
이 단순한 사례가 통계학의 가장 중요한 교훈을 담고 있다.
상관관계는 인과관계를 함의하지 않는다.
두 변수 A, B가 함께 변한다 (correlation) 는 사실은 — A가 B의 원인 (causation) 이라는 결론을 자동으로 보장하지 않는다.
관찰된 두 변수 A, B를 모두 변화시키는 제3의 숨은 변수 C 가 있다. A와 B 사이에는 인과관계가 없지만, C 때문에 함께 변한다.
"A가 B의 원인이다"라고 본 것이 사실은 "B가 A의 원인이다"인 경우. 인과의 방향을 거꾸로 추론하는 오류.
전혀 무관한 두 변수가 단지 같은 시기에 같이 변하는 경향을 보였을 뿐. 인과·잠복도 없는 순전한 우연.
측정한 표본이 전체 모집단을 대표하지 못한 채로 추출되어 — 자료의 상관관계가 인위적으로 만들어진 경우.
여름, 나이, 소득, 교육 수준 등의 잠복변수를 의심하라.
"A → B"라고 본 게 사실 "B → A"일 가능성을 검토하라.
특히 시계열 자료에서는 무관한 두 추세가 비슷하게 보일 수 있다. 큰 표본·반복 검증이 필요.
특정 집단에서만 자료를 뽑았는지, 추출 과정에서 편향이 있는지 확인.
인과관계는 관찰만으로는 증명 어려움. 실험적으로 한 변수를 조작하여 다른 변수의 변화를 관찰하는 것이 인과 검증의 표준.
의학·과학의 표준: 흡연과 폐암의 인과관계는 1950년대 이후 수십 년에 걸친 대규모 코호트 연구·동물 실험·생물학적 기전 연구를 통해 정립되었다. 단순한 상관관계 하나로는 결코 결정되지 않았다.
"여름이 되면 아이스크림 판매와 익사 사고가 동시에 증가한다. 그러므로 아이스크림이 익사를 유발한다."
"상관관계 ≠ 인과관계". 함께 변한다는 사실은 한쪽이 원인이라는 증명이 아님.
잠복변수 · 역인과 · 우연한 일치 · 표본 편향. 모두 가짜 인과를 만든다.
제3변수? 방향 반대? 우연? 표본 편향? 실험 검증?
무작위 대조 실험 (RCT) 이 황금 기준. 의학·심리·사회과학의 표준.
중단원 완성 Ⅵ-2.1 (대푯값) → 2.2 (분산·표준편차) → 2.3 (산점도·상관관계) → 2.4 (해석) 까지 통계의 네 핵심 도구를 손에 넣었다. 다음은 Ⅵ-2.5 중단원 점검과 Ⅵ-2.6 수행과제로 종합 응용.